查看原文
其他

三代组装软件Canu简介

生信阿拉丁 生信阿拉丁 2022-05-16




三代组装软件Canu简介









对于长读长序列组装,之前已经简单介绍了几款常用软件(详见三代组装软件简介),今天主要给大家介绍一下Canu。


Canu是基于OLC算法,具有长reads的自纠错和组装功能,是应用最为广泛的三代组装软件,从Canu v1.9开始,支持pacbio hifi的组装,目前最新的版本是2.1.1,以下将以该版为基础,介绍该软件的使用。




1

Canu的安装


Canu(Koren et al., 2017)是发展较早、相对成熟的组装软件,其运行速度慢(特别时在纠错步骤),组装准确性和连续性好。目前的版本为Canu v2.1.1,下载后可按照提示进行安装。

https://github.com/marbl/canu/releases

Canu需要依赖gnuplot和1.8版本以上的java,如没有请下载安装。


2

Canu参数说明


Canu对pacbio和nanopore原始数据的组装分为三个步骤:纠错,修整和组装。

每一步经历以下几个步骤:
1.加载read到read数据库(seqStore)
2.进行k-mer计数
3.计算overlap,加载到数据库(OvlStore)
4.根据overlap进行纠错/修剪/组装

Canu常用参数如下:

简单介绍下:
 -pacbio-raw 指使用pacbio CLR 原始数据
 -nanopore-raw 指使用nanopore 原始数据
 -pacbio-hifi    指使用pacbio-hifi reads进行组装

rawErrorRate:未纠错read之间允许的最大差异碱基数,默认  PacBio reads为0.300, Nanopore reads为0.500
correctedErrorRate:纠错后read之间允许的最大差异碱基数,默认  PacBio reads为0.045, Nanopore reads为0.144
corOutCoverage:用于纠错的数据最小coverage,默认是40x
minReadLength:使用长度大于该阈值的reads,默认为1000
minOverlapLength:最小overlap的长度,默认为500
maxThreads:设置运行的最大线程数


3

Canu运行

运行命令:
canu  -p fungi -d test -pacbio pacbio.fasta genomeSize=35000000 -s spec.txt
参数可以直接写在命令行,也可以写到spec.txt文件中通过-s传递给Canu。
不指定运行过程的情况下,对原始数据默认进行纠错、修剪、组装。
如果已完成纠错,可以通过指定-pacbio-correctd和-nanopore-correctd将纠错后的reads提供,进行修剪和组装( -trim 、-assemble、-trim-assemble)。
对hifi reads进行组装使用-pacbio-hifi,使用该参数将不在进行纠错,直接进行组装。
Canu支持断点续跑,程序中断重新投递时,会检查已生成的目录中的文件,运行没有完成的任务。
Canu可以根据当前服务器所有可用的资源,自动检测计算资源并扩展调整自身参数的配置。也可以用maxMemory和maxThreads参数来设置。


4

结果说明

Canu运行后生成的全部结果在test目录下,内容如下:

correction,trimming,unitigging记录了纠错、修剪和组装的过程,主要结果文件包括:
    ecoli.correctedReads.fasta.gz:纠错后的reads
    ecoli.trimmedReads.fasta.gz:修剪后的reads
    ecoli.contigs.fasta:最终的组装contigs
    ecoli.report:记录整个Canu运行过程及结果


5

结语

Canu自发布以来以其组装的高准确性,获得了超高的使用率和文献引用率。对于高杂合物种,Canu的组装通常会大于实际的基因组大小,建议后续对基因组去冗余。


6

参考文献


1. Koren S, Walenz BP, Berlin K, Miller JR, Phillippy AM. Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation. Genome Research. (2017). doi:10.1101/gr.215087.116

2. Koren S, Rhie A, Walenz BP, Dilthey AT, Bickhart DM, Kingan SB, Hiendleder S, Williams JL, Smith TPL, Phillippy AM. De novo assembly of haplotype-resolved genomes with trio binning. Nature Biotechnology. (2018). 

3. Nurk, S., Walenz, B.P., Rhie, A., Vollger, M.R., Logsdon, G.A., Grothe, R., Miga, K.H., Eichler, E.E., Phillippy, A.M., and Koren, S. (2020). HiCanu: accurate assembly of segmental duplications, satellites, and allelic variants from high-fidelity long reads. Genome Res 30, 1291-1305.


作者:May

审稿:童蒙

编辑:angelica

往期精彩回顾

为什么老人比小孩更容易感染新冠病毒

肿瘤全外显子测序实验技术要点

三分钟看懂TMT技术之分析质控篇

ATAC-seq / ChIP-seq问题盘点

生信人员怎么能让代码维护性更强呢?

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存